Panoramica e panorama dell'evoluzione architetturale

Passiamo dal successo fondamentale di AlexNet all'era delle reti neurali convoluzionali ultraprofonde Reti Neurali Convolutionali (CNN). Questo cambiamento ha richiesto innovazioni architetturali profonde per gestire una profondità estrema mantenendo la stabilità durante l'addestramento. Analizzeremo tre architetture fondamentali—VGG, GoogLeNet (Inception), e ResNet—comprendendo come ciascuna abbia risolto aspetti diversi del problema della scalabilità, gettando le basi per un'interpretazione rigorosa dei modelli in seguito in questa lezione.

1. Semplicità strutturale: VGG

VGG ha introdotto il paradigma di massimizzare la profondità utilizzando dimensioni di kernel estremamente uniformi e piccole (esclusivamente filtri convoluzionali 3x3 impilati). Anche se computazionalmente costoso, la sua uniformità strutturale ha dimostrato che la profondità grezza, ottenuta con variazioni architetturali minime, era un fattore primario per miglioramenti prestazionali, consolidando l'importanza dei campi receptivi piccoli.

2. Efficienza computazionale: GoogLeNet (Inception)

GoogLeNet ha contrastato il costo computazionale elevato di VGG privilegiando l'efficienza e l'estrazione di caratteristiche su più scale. L'innovazione centrale è il modulo Inception, che esegue convoluzioni parallele (1x1, 3x3, 5x5) e pooling. Criticamente, utilizza convoluzioni 1x1 come colli di bottiglia per ridurre drasticamente il numero di parametri e la complessità computazionale prima delle operazioni costose.

Problema ingegneristico chiave

Residual Learning: ResNet

ResNet solved the degradation problem by introducing the identity mapping (skip connection). This non-sequential shortcut allows the network to learn a residual function $F(x)$ instead of a direct mapping $H(x)$, effectively ensuring that adding more layers can only improve or maintain performance, dramatically improving optimization stability.

Diagram showing a ResNet skip connection architecture

Question 1

Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?

AlexNet

VGG

GoogLeNet

ResNet

Question 2

The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?

Increasing feature map resolution

Non-linear activation

Dimensionality reduction (bottleneck)

Spatial attention

Critical Challenge: Vanishing Gradients

Engineering Solutions for Optimization

Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.

Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.

Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.